专题丨基于BERT的非招标采购实体关系抽取研究
作者简介
张朝阳
论文引用格式:
张朝阳. 基于BERT的非招标采购实体关系抽取研究[J]. 信息通信技术与政策, 2023, 49(6):2-9.
基于BERT的非招标采购实体关系抽取研究
张朝阳
(国家能源集团物资有限公司,北京 100055)
摘要:提出了一种基于BERT的实体长度感知的实体关系抽取模型IL-BERT,该模型在经过BERT方法提取的实体特征向量上引入实体长度信息,以增强实体特征的表示能力。分别在公共数据集和非招标采购领域数据集上进行试验,结果表明,提出模型的数值均优于基线模型。
关键词:BERT;实体关系抽取;实体长度感知;非招标采购
0 引言
随着信息技术的飞速发展和网络的广泛应用,互联网逐渐成为人们生活中不可或缺的部分,同时极大增加了高价值信息获取的难度。信息提取技术应运而生,成为在海量数据中提取关键信息的重要方式。信息提取的主要目的是从自然语言文本中提取特定的实体、关系和事件,其中关系抽取在近年来越发受到关注。关系抽取任务是预测名词之间的语义关系,通常给定一系列文本(一个句子)和一对名词e1和e2,通过句法分析确定e1和e2之间的关系类型[1]。
之前的研究大多采用深度神经网络模型来抽取实体关系[2-11],例如Socher等提出了MVRNN实体关系抽取模型,该模型在解析树中每一个节点上分配了一个矩阵向量表示;Santos等提出了CR-CNN实体关系抽取模型,并设计了基于成对排序的损失函数。这些方法通常从外部词汇资源或一些自然语言处理(Natural Language Processing,NLP)工具中提取特征。而这类特征的提取方式需要额外资源消耗,语义特征信息不足。近期,预训练语言模型已经被证明对改善许多自然语言处理任务是有效的[12-15]。Devlin等[16]提出的预训练模型基于转换器模型的双向编码器(Bidirectional Encoder Representations from Transformer,BERT)对自然语言处理任务产生了重要影响,该模型可以充分提取输入文本的语义特征,改善下游任务的性能。Wu和He[17]将BERT应用在关系抽取任务上,提出了R-BERT模型,实现了基于BERT的关系抽取任务,但他们并没有考虑到实体长度对实体关系抽取结果的影响。
针对上述问题,本文提出了IL-BERT模型,该模型使用BERT模型作为文本特征提取器,充分提取输入文本的语义特征信息并减少外部资源的消耗,同时在特征向量前向传播的过程中加入实体长度信息,以增强实体特征的表示能力。通过这种方式,此模型能够更好地捕获上下文语义信息、目标实体语义信息以及实体长度信息,从而更好地完成关系抽取任务。
1 关系抽取模型的建立
1.1 BERT模型
谷歌团队在2018年提出了BERT预训练语言模型,是基于转换器模型(Transformer)的编码器(Encoder)模块的衍生模型,该模型能够学习文本序列的特征表示,并把学习的特征表示应用到不同的下游任务中。其中BERT以单个句子序列作为输入,n为序列长度,xi表示序列中的第i个字符,之后分别完成词嵌入(Token Embeddings)、句嵌入(Segment Embeddings)和位置嵌入(Position Embeddings),并将三个嵌入信息累加获取BERT模型输入。
其中词嵌入是基于BERT的WordPiece方法将输入序列进行分词,对于中文输入则以单个字符进行分割;引入词汇表,将单个字符与词汇表字符进行映射,将分词结果映射为索引序列,其中ti表示字符xi在词汇表中的索引位置。对于句子序列X中的未知字符则引入特殊标识符[UNK],同时引入特殊标识符[CLS]与[SEP],其中[CLS]插入序列输入开头,在BERT模型的输出中该标识符代表当前输入序列的特征向量;[SEP]作为输入序列中句子间的分隔符。完成分词及映射后基于BERT模型的词嵌入矩阵将所有单个字符转化为固定长度向量。
句嵌入用以区分序列输入中的不同句子,在不同的句子中通过使用不同的索引下标,根据索引下标查找嵌入矩阵,获取当前序列输入的句子嵌入向量。其中同一句子中字符的句嵌入相同,不同句子间字符的句嵌入不同。
位置嵌入表示当前单词的位置信息,可以区分不同位置的相同单词,主要通过正余弦计算实现,如公式(1)~(2)所示,其中pos代表当前字符xi在输入序列X中的位置下标i,2i与2i+1分别代表位置信息嵌入向量中索引为偶数和奇数的位置,是BERT模型的嵌入维度。
1.2 Transformer模型Transformer是BERT模型的核心组成部分,其结构如图1所示,该模型是典型的编码器—解码器结构,编码器对应图1中的左半部分,解码器对应图1中的右半部分。编码器部分由6个相同的子模块叠加而成,每个子模块由多头自注意力机制和前馈神经网络组成。在每个多头自注意力机制和前馈层后使用了残差网络和层归一化,其中引入残差网络可以解决梯度消失和权重矩阵退化的问题,引入层归一化的目的也是为了减少梯度消失和模型退化,从而确保输入可以与其他层的输出平滑地进行整合,并帮助深层网络进行更好的训练。解码器的结构和编码器基本相同,同样采用6个完全相同的子模块叠加形成,仅在解码层开始处添加了额外的一层可掩盖的多头注意力层。该模型完全使用注意力机制来取代以往的循环神经网络,在Transformer模型的运行过程中,输入到编码器的数据通过一系列内置函数进行计算,然后输出到解码器,结果被逐一解码。
1.3 IL-BERT模型本文将BERT模型迁移到非招标采购评审领域,构建了关系抽取模型IL-BERT。针对评审元素中包含同种关系类型的实体长度相近的现象,将实体长度作为评审目标的特征之一构建特征向量,同时融合能够表示实体对上下文语义信息的句子级特征向量CLS,提高分类的准确率。
IL-BERT模型主要包括嵌入层、池化层和分类层,如图2所示。嵌入层以BERT作为特征提取器模型获取输入序列中每个字符的语义特征向量,以及包含整个序列语义信息的特征向量。池化层用于特征融合,在保留主要特征的同时减少模型参数。分类层将融合后的特征向量映射到关系类型的概率上。
1.3.1 嵌入层针对非招标采购评审领域的关系抽取任务,嵌入层使用了两个特殊标识符$和#,分别用以标记头实体e1和尾实体e2,其中e1和e2分别由{Ti,…,Tj}和{Tk,…,Tm}构成。具体来说,将输入序列预处理为形如{[CLS],T1,…,$,Ti,…,Tj,$,…,#,Tk,…,Tm,#,…,Tn}的序列,并通过词嵌入、句嵌入以及位置嵌入构成BERT模型输入,通过BERT模型的多层自注意力机制网络结构获取输入序列的嵌入表示{ycls,y1,…,y$,yi,…,yj,y$,…,y#,yk,…,ym,y#,…,yn}。
1.3.2 池化层池化层主要通过池化的方式将头实体和尾实体向量压缩为固定大小[dmodel]。针对非招标采购评审领域中实体长度特点,本文采用最大池化方式作为池化层方法。然后把经过池化的实体对向量和进行线性变换,并将线性变换的结果通过激活函数进行非线性激活。之后将CLS向量、实体对向量和及实体长度信息向量和进行拼接,以获取融合了上下文语义信息及实体长度信息的向量。如公式(3)~(4)所示。
1.3.3 分类层分类层主要基于上一层生成的包含各类信息的特征向量,预测出实体对之间存在每一种关系的概率。具体来说,对特征向量进行线性变换,并将线性变换的结果通过激活函数进行非线性激活,以生成特征向量hc,最后通过归一化指数函数,计算得到最终的预测结果分布。
2 IL-BERT模型试验
为了验证IL-BERT模型关系抽取的性能,本文将该模型与一系列有竞争力的基线模型进行了比较,这些基线模型既包括基于传统特征提取方式构建的模型,也包括基于预训练模型构建的模型,以及重点对比的R-BERT模型。
2.1 环境配置本文模型计算时的硬件型号为“Intel Xeon Silver 4316”包含20核的中央处理器,可更高效使用多线程来并行预处理数据集,加快数据集预处理速度,提高神经网络训练速度。图形处理器(Graphic Processing Unit,GPU)型号为“NVIDIA Geforce RTX 3090”,显存位宽为384 bit,显存频率为19 500 MHz,显存容量为24 G,包含10 496个统一计算设备架构(Compute Unified Device Architecture,CUDA)核心,可高效地并行化矩阵乘法和卷积的浮点运算过程,大幅度提升深度学习算法的计算效率。本文使用基于BERT的大规模预训练模型,该图形处理器可提高批量大小上限,提高BERT在下游关系分类任务的微调速度。内存型号为“DDR4 3 200 MHz”,硬盘型号为“8 TB 256 MB 7200转SATA”。
2.2 数据集IL-BERT模型收集询价采购公告数据,对公告中的报价人资格条件说明进行筛选,定义报价人资格条件中的关系类型,如报价人资格条件说明中有“应提供有效合同扫描件(应包含合同买卖双方盖章页、合同签订日期、货物名称型号及关键技术参数等信息)”,包含关系类型“合同扫描件应包含日期(合同扫描件、合同签订日期)”“合同扫描件应包含货物名称型号(合同扫描件、货物名称型号)”等。
IL-BERT模型收集报价人提供的道路运输经营许可证、安全生产许可证等各类企业资质证照与建造师资格证、律师证等人员资质证照,使用光学字符识别(Optical Character Recognition,OCR)技术对资质证照进行文字识别,获取文本形式的序列数据,定义证照中存在的关系类型。如文本序列“道路运输经营许可证游字11010800****号2019年3月22日北京****运输有限公司市内包车客运”中包含关系:“许可证有效期(道路运输经营许可证,2021年8月17日)”“许可证编号(道路运输经营许可证,游字11010800****号)”等。
同时本文也使用了关系抽取常用数据集Semeval 2010 Task进行对比试验。将数据集按照80%训练集和20%测试集的方式来划分数据集,基本信息如表1所示。表1 试验数据集
2.3 参数设置本文进行多次调参试验,根据训练效果最终将模型参数设置为:批量大小为16个,最大句子长度为128个单词,学习率为2e-5,训练轮次为5轮,丢弃层参数为0.1。使用交叉熵损失函数作为模型的损失函数,利用Adam优化器更新迭代参数。试验参数如表2所示。表2 试验参数
本文的评价指标采用F1值来进行评测,计算方法如公式(4)~(6)所示,其中P是准确率,R是召回率,F1为P与R的调和平均数。
2.4 模型对比将IL-BERT模型与前文介绍的基线模型进行对比,试验结果如表3所示。其中IL-BERT模型的F1值最高,达到了88.3%,说明对于实体关系抽取任务而言,引入实体长度信息的IL-BERT模型相比于其他模型更优,实体关系抽取准确率更高。表3 公共数据集中各模型表现
同时使用IL-BERT模型在不同算力支持情况下,对比单个批次的训练时长,试验结果显示,使用i7 8700k型号的中央处理器训练时间为32 min,使用AMD Redeon(TM)Graphics型号的集成显卡训练时间为25 min,使用GTX 1070型号的显卡和RTX 3090型号的显卡的训练时长明显小于其他型号,具体如图3所示。
2.5 池化对比为验证不同池化方式对关系抽取模型的影响,在公开数据集和采购评审领域数据集上展开了对比试验,公开数据集中R-BERT和IL-BERT模型平均池化的F1值分别为88.1%和87.8%,而最大池化的F1值分别为88.3%和88.0%,如表4所示。采购评审领域数据集中R-BERT和IL-BERT模型平均池化的F1值分别为87.4%和81.2%,而最大池化的F1值分别为88.3%和84.3%,如表5所示。试验结果表明最大池化方式优于平均池化方式。表4 公共数据集中各模型表现
表5 采购评审领域数据集中各模型表现
3 消融试验分析
经试验验证,IL-BERT模型在关系抽取任务中具有优秀的性能,为进一步研究各部分组件对试验结果的贡献,本文设计了消融试验进行分析。
3.1 实体长度信息通过与未引入实体长度信息的模型对比发现,已引入实体长度信息的IL-BERT模型在公开数据集中的效果优于其他模型,说明实体长度信息在实体关系抽取任务中具有明显作用,如表6所示。表6 公共数据集中各模型表现
3.2 CLS信息为验证句子向量[CLS]对关系抽取模型的影响,在公开数据集和采购评审领域数据集上进一步展开了对比试验,试验结果表明句子向量[CLS]在关系分类任务中没有明显作用,如表7、表8所示。表7 公共数据集中各模型表现
表8 采购评审领域数据集中各模型表现
4 结束语
本文基于预训练模型BERT提出了一种新的关系抽取模型IL-BERT,该模型能够避免额外的外部资源消耗,利用实体长度信息增强实体特征表示能力。在公开数据集以及非招标数据集上进行了充分的试验,结果表明IL-BERT模型具有优秀的关系抽取能力。未来可将该模型扩展到对实体、实体间关系和实体属性进行联合抽取。
Research on entity relationship extraction for non-bidding procurement based on BERT
ZHANG Zhaoyang
(China Energy Materials Company Limited, Beijing 100055, China)
Abstract: This paper proposes an entity relationship extraction model IL-BERT which is based on BERT and can be aware of the entity length. This model introduces entity length information into the entity feature vectors extracted with the BERT method to enhance the representation ability of entity features. Experiments are conducted on both public and non-bidding procurement datasets, and the results show that the F1 values of the proposed model are better than those of the baseline model.Keywords: BERT; entity relationship extraction; entity length-aware model; non-bidding procurement
本文刊于《信息通信技术与政策》2023年 第6期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站已正式投入运行,欢迎投稿!
推荐阅读
专题导读:先进计算创新与应用
《信息通信技术与政策》2023年第49卷第5期目次及摘要
你“在看”我吗?